太长不看版:在进行研究设计时,已有的实验研究设计时主要关注样本量对统计功效的影响。但后续的研究发现,试次数量也会影响统计功效,除此之外,被试内方差和被试间方差也应成为未来研究中的重要考量因素。因此,对统计功效进行先验分析时,样本量、试次数量、被试内方差、被试间方差等因素都应该作为重点考虑的因素。
鉴于个人能力有限,翻译中难免有不足之处,强烈建议直接阅读原文:Baker, D. H., Vilidaite, G., Lygo, F. A., Smith, A. K., Flack, T. R., Gouws, A. D., & Andrews, T. J. (2020). Power contours: Optimising sample size and precision in experimental psychology and human neuroscience. Psychological Methods. http://dx.doi.org/10.1037/met0000337。此外,鉴于篇幅原因,译文中我们并未对涉及到的参考文献进行一一标注,因此在时间和精力允许的情况下,我们强烈推荐观看原文。在进行以人为被试的心理学实验研究设计时,研究者必须确定每个被试需要完成的试次数量,以及研究中需要的被试数量(又称为样本量)。但以往关于统计功效(statistical power,也称统计检验力,是指研究设计中检测效应的能力)的讨论主要集中在样本量上,但前提是被试需要完成足够的试次数量。统计功效是指一个研究在给定样本量下检测到相应效应量的能力。近年来,低统计功效的问题一直备受关注。与高统计功效的研究相比,低统计功效的研究检测到得到真实效应的能力较低(因此可能产生更多的II型错误)。低统计功效的研究容易发现统计上具有显著差异但并不真实的效应,并且由于发表偏向(即显著的结果比不显著的结果更可能发表),发表的低统计功效的研究也导致较高的I型错误(假阳性)率。此外,研究中发现的任何实际效应可能具有一定的效应量膨胀空间。以上问题在许多科学学科的研究中非常常见,神经科学研究中对统计功效估计取值的研究范围得出的功效值一般在8%~30%之间,远低于≥80%的预期水平。低统计功效研究成果的大量发表使某些领域充斥着无法重复但很可能虚假的效应。但已有的研究中关于提升统计功效的方法主要是:增加样本量(如图1d所示)。但是,除样本量之外,在实验研究设计阶段,试次数量是研究者的第二个自由度,试次数量是指每个参与者对于给定实验条件的重复(或 试次)数量。
图1 标准差和统计功效的仿真示意图。(a)是50个个体的模拟数据。其中总体平均值M=0、被试内内标准偏差σw=0、被试间标准偏差σb=2和样本标准偏差σs=2,个体数据点具有随机的垂直漂移。(b)参与者内的标准差增加到σw=10,每个点是20个试次的平均值,水平误差线表示±1 SEM。(c)每个参与者将试次增加到200个试次的效应。(d)经典的基于效应量(Cohen’s d)和样本量(N)的统计功效曲线图。水平虚线表示80%的统计功效,一般认为可以接受。(e)样本标准差(σs)取决于每个被试的试次数量(k)以及被试之间的标准差σb=2。(f)基于样本量N=200,平均值M=0.5计算出的(e)中统计功效。(g)(h)如文中所述,以及组平均值M=1下,σw和σb的不同组合的统计功效等值线。模拟使用正态分布的随机数,统计功效计算为双侧t检验,与0比较的单样本t检验。当感兴趣的因变量可以被高精度估计时,重复测量几乎没有益处,并且方差的主要来源是被试间的差异。图1a的分布说明了这一点,每个参与者(点)在正态分布(曲线)上的分布不同,但每个点的方差可以忽略不计。图1b呈现了许多实验范例的真实情形。如水平标准误差线所示,每个估计值的方差都很大,同时会产生增加样本总体标准偏差的连锁反应(图1a中σs = 2个单位以及图1b中σs = 3个单位)。样本标准偏差增加的改善可以通过增加测量次数来提高每个被试估算均值(estimated mean)的准确性。如图1c所示,与图1b中试次k=20个相比,从k=200个试次中估算每个参与者的平均值,样本(曲线)的标准偏差显著降低(到σs=2.1个单位)。
统计功效一般来源于效应量的计算,如:Cohen’s d,取决于样本均值(或均值差)和样本标准差(公式:d=M/σs)。如图1e所示,在参数化假设下,每个参与者的试次数量(k)会影响样本标准差,公式如下:
公式中σb和σw分别表示被试间-和(平均)被试内的标准差,k是每个被试的试次数量。样本标准差(σs)影响效应量,之后影响功效(如 图1f 所示)。从公式中可以看出,因变量很大程度上取决于被试内的方差变异,因此提高每个被试的估计精度可以有效地提高整体的统计功效,或许可以在一定程度上减少研究中所需的样本量。尽管大多数的研究人员都意识到了这一事实(众所周知,进行大量试次可以提供“更好”的数据),而且这个问题已经得到数学上的证实,但还没有较为被研究者广泛接受的程序或方法来确定要进行的研究中适当的试次数量。相反,很多研究者在进行研究设计时通常是使用经验法则、先例和猜测来进行设计的。在本文中我们以行为学、感觉阈限、fMRI、MEG、EEG等为方法的8个实验范式和数据来集中于探讨样本量和试次数量对统计功效的影响。在未来的研究中可以通过Power Contours(https://shiny.york.ac.uk/powercontours/) 这个在线计算工具来获得相应的统计功效的等值线图,从而更好的优化实验设计。首先考虑上述情况,从单个试次中可以准确地对因变量进行估计,但个体都呈现了变量的不同真值(从形式上讲,被试内的方差很低,但被试间的方差很高,σw<σb)。例如年龄和身高等变量,这些变量的测量误差很小,每时每刻的变化也很小,或者在有工具(如卷尺)帮助的辅助下能进行精确测量。在这种情形下,统计功效取决于样本量和效应量,其中效应量为Cohen’s d。显然,在这种情况下,对每个参与者进行多次测量并不会带来任何好处。我们可以使用二维图(如图1g所示)将统计功效与样本量和试次数量之间的关系呈现出来。在这里,这些线呈现出了样本量和试次数量的统计功效等值线图,这些样本量和试次数量的组合产生了相同的统计功效(这种特性有时被称为统计功效等值)。在这个例子中,统计功效曲线是垂直的,并没有表现出多次重复测量的优势。接下来考虑一个更现实的情境,即单个测量值非常嘈杂的情况(相对于参与者之间的方差,参与者内部方差很高,σw>σb)。样本标准差随着试次数量的增加而减小(图1e),因为每个参与者的均值估计随着重复测量变得更加准确。实际上,统计功效取决于试次数量和样本量,统计功效等值线的弯曲度就非常明显(图1h)。这些统计功效等值线为潜在的实验设计对统计功效的影响提供了有效的总结。既定的统计功效(如:80%,统计功效等值线图中的蓝色粗线)可以从样本量和试次数量之间的不同组合中获得。这是一个有用的观点,因为研究设计可以根据其他约束条件进行优化。如果可供选择的样本量相对较少(可能是因为经济拮据,或者对临床人群进行测试),那么可以增加试次的数量。但是,请注意,在特定数量的试次(图1h中的k=50左右)外,当统计功效接近极值渐近线时和以及更多的试次是没有好处的。或者,如果每个被试都必须非常迅速地进行测试(例如,针对涉及儿童的研究),但有许多参与者可供选择,则可以将试验数量保持在相对较低的水平(此处约为k=20),从而对更大的样本量进行测试。这对于大型系列研究具有潜在价值,其中许多参与者各自完成一系列不同的任务。更典型的情况是,研究人员希望最小化样本量和测试时间,而统计功效曲线拐点附近的值允许对样本量和试次数量这两个参数进行联合优化。使用R脚本,可以为被试内和被试间的方差和均值差异的任何组合生成功效等值线图,该脚本可以通过web界面访问:https://shiny.york.ac.uk/powercontours/。为了在实验设计中具有实用价值,有必要从经验上确定统计功效是否确实随典型实验范式中的试次数量而变化。为此,我们使用心理学和认知神经科学的一系列经典实验,包括RTs、比例选择、感觉阈限、EEG、MEG和fMRI,重新分析了8项研究的数据。我们通过对数据进行重复抽样来估计功效等值线,因此我们的目标是包括具有大样本量的数据集,其中每个参与者都完成了许多试次(尽管并不总是能够同时满足这两个标准)。所有这些分析都基于单样本或配对样本t检验,但同样的原理适用于更复杂的统计技术(见讨论部分),并且可以使用下面描述的重复抽样技术来实现。所有示例数据和分析脚本都可以在osf(https://osf.io/ebhnk/)中获得,也可以在文章中直接引用,以允许其他人复制我们的分析,并将这些方法应用到他们自己的研究中。我们首先分析了Pirrone、Wen、Li、Baker和Milne(2018)先前报道的Posner-style attentional cueing 实验的反应时。被试(N=38)看到一个中央线索刺激,将他们的注意力引导到注视点的左侧或右侧。然后在线索一致的位置(一致条件)或线索不一致的位置(不一致条件)呈现正弦波光栅目标。每个参与者完成k=600一致性试次和k=200不一致性试次,图2a显示了一个参与者的RT分布示例。图2 行为学数据总结示意。(a)显示了一个示例参与者的RT分布,垂直线给出了平均值。(b)显示了38名参与者样本的组平均RTs数据。(c)显示功效等值线图,其中颜色表示统计功率(见图例)。粗蓝线表示统计功效为80%时的样本量和试次数量的组合。y轴表示不一致条件下的试验次数(一致条件下的试验次数是三倍)。在组水平上,在不一致条件下,RTs平均慢51 ms(见图2b),差异的标准偏差(σs)为42 ms。对于总的数据集,产生的效应量为:d=1.2。我们还通过不一致和一致条件下的RTs的方差来估计参与者内的标准差,并对参与者进行平均,其中σw=151 ms。最后,为了估计σb,我们公式1进行一定的修改,得到公式2:我们通过从数据中对试次和样本量进行重新抽样产生随机子集,并使用平均值和标准差计算效应大小和功率,将配对t检验与0进行比较(使用R的pwr包中pwr.t.test函数)。此外,另一种方法是简单地用重采样数据进行t检验,并计算显著性检验的概率,但对统计功效进行直接估计时,此方法上的计算更有效,因此我们在可能的情况下使用此方法。我们执行10000次的重复抽样,平均功效估算结果如图2c所示。正如我们的模拟所预测的那样(图1h),80%功效的iso-功效等值线(由粗蓝线显示)是弯曲的(我们通过使用power contour Shiny app来计算的汇总统计数据从而确认重复抽样的结果)。大样本量(N>20)和小样本量(k<10)或大样本量(k>50)和小样本量(N=8)均可获得高功率。功率曲线的拐点发生在样本大小为N=10,每个被试完成约k=20个试次。当然,这是一个相对较大的效应量与一个稳健的效应(注意线索)。其他具有较小效应量的研究设计将需要较大的样本量和/或更多的试次,但值得肯定的是,相同的基本计算方式模式应适用于此类实验的研究设计。随后,我们重新分析了Steingroever等人(2015)报告的一个关于504名被试完成爱荷华博弈任务的数据集。在爱荷华博弈任务中,参与者从四个卡牌中选择其中一个卡片。两张牌的总体收益更大(“好”牌),而另外两张牌的收益更差(“坏”牌)。参与者必须在实验过程中学习这些概率,并尝试使他们的收益最大化。因此,在整个实验过程中,被试的表现会发生变化,并且我们将在后面讨论这种学习的结果,但首先分析总的(例如:无序)试次。图3a显示了一组参与者的汇总数据,每个参与者都完成了k=100次试次。在所有试次中取平均值,从“好”牌组中选择一张牌的平均概率为0.54(样本标准差σs=0.16),与概率基线0.5相比,效应大小d=0.24(见图3a)。我们计算了个体选择的标准差,并对参与者进行平均,得出σw=0.47,这意味着(通过公式2)受试者之间的标准差σb=0.15。图3 爱荷华博弈任务中的比例选择分布。(a)显示了从“好”牌组中选择一张牌的平均概率的密度图,该图包含N=504名参与者,每个参与者在k=100次试验中的平均值。垂直黄线表示总平均值,垂直虚线表示偶然预期的概率。黑色曲线(灰色阴影显示±1 SE)显示每个试验中所有参与者的平均概率(1到100)。(b)显示了单样本t检验的功效等值线,将平均概率与概率基线(0.5)进行比较。对于这些模拟,试次是进行随机重复抽样的结果。(c)显示了有序试次的统计功效曲线。我们再次通过从数据中对试次和参与者的随机子集重新取样,并使用平均值和标准偏差计算效应量和功效,并与0.5进行单样本t检验(使用R的pwr包中pwr.t.test函数)。这个过程重复了10000次,平均功效估计值如图3b所示。与图1h中的模拟一致, 功效取决于样本量和试次数量。在试次数量较少(k<40)的情况下,通过增加试次数量可以显著减少样本量。例如,试次数量从k=5增加到k=40,样本量可以从N=400减少到N=200,同时保持功效。或者,对于N=200的样本量,试次数量从k=40增加到k=100,统计功效几乎没有任何提高,因为功率曲线已达到渐近线。在爱荷华博弈任务中,试次的偶然性贯穿整个实验过程。图3a中的黑色线条说明,在实验开始时,被试更有可能在前20次试验中从“坏”牌堆中选择卡片。被试的选择卡牌的行为随着他们学习任务的偶然性而改变,在最后的40次测试中,他们更有可能从“好”牌组中选择牌。随机抽样试次却丢失了这些信息,如图3b中的功效等值线图所示。另一种方法是保留试次顺序,只在被试间进行重新抽样。此分析的统计功效等值线如图3c所示。在首先的40个试次中,由于平均概率显著低于0.5(见图3a中的黑色曲线),因此具有很高的统计功效。当被试开始学习任务偶然性时,平均概率大于0.5,在60个试次前后,统计功效下降到接近零。然后,当被试开始稳定地选择“好”牌组时,平均概率显著高于0.5,并且统计功效再次增加,通过80个的试次和所有的被试样本达到80%左右。当使用此任务进行研究设计时,数据的这种替代可视化可能很有价值,因为它清楚地显示了行为表现(以及总体功效)是如何随时间变化的。心理物理学的阈值检测通常是通过对不同强度的刺激进行大量的二分试次来测量的。正确试验的比例随刺激强度单调递增,产生一个心理测量函数曲线(见图4a)。图4 心理物理学阈限数据。(a)显示了单个被试的心理物理测量曲线,符号大小与每个目标对比度水平的试验次数成比例。曲线拟合的是插值阈值在正确率(虚线)为75%时的累积高斯函数。单眼情形(蓝色)的数据在拟合前进行了左右眼数据的平均。(b)显示了单眼(蓝色)和双眼(黄色)检测阈值在N=38名视力正常的被试中的分布。(c)显示了通过对数据进行重复抽样和重新调整心理测量函数得出的统计功效等值线图。然后,通过拟合连续的ogival函数(如累积高斯分布或Weibull分布),在某个标准表现水平(通常正确率为75%)上估计阈值。我们重新分析了双眼整合任务(binocular summation experiment)的数据,在这种情况下,对比度检测阈值是用这种方法测量的正弦波光栅刺激,无论是单眼或双目使用立体快门护目镜系统呈现刺激。单个被试的心理测量函数曲线示例如图4a所示(使用R软件包中的quickpsy进行拟合),很明显,同等表现要求单眼呈现(蓝色)的对比度高于双目呈现(黄色)。在组间水平上(见图4b),这会产生一个介于和2之间的单眼和双眼阈值比率。从而得到大众所知的双眼整合效应,本研究的效应量为d=1.8。平均效应为6.6 dB,样本标准偏差σs=3.6 dB。我们对数据集进行重复抽样,得出如图4c所示的功效等值线图。由于每个被试完成的试次数量略有不同(由于自适应阶梯程序用于确定每次试次的对比度水平),我们对每个参与者进行了不同比例的试次,每次都重新调整了心理测量函数。就整体而言,每名被试完成了225次双眼和单眼的测试(分别测试左眼和右眼,并将其数据合并)。当总和估计值超出合理范围(因子在0.12~32之间)时,它们被拒绝,因为这表明数据拟合程序似乎有问题。正如预期的那样,功效取决于样本量和试次数量,并在数据集的可用范围内持续提升(如,80%功效下的函数比较低,在试次范围内没有渐近线)。事实上,包括所有试次在内,只有大约6名参与者被要求达到80%的功率(与之前对这种范式的功效估计一致)。相反,当所有38名参与者都被包括在内时,只需要大约15%的试次(每种情况大约34个试次)。或者,在样本量为N=12的情况下,每个被试完成总试次的30%左右,可以保证80%的功效。对于这种范式,估计参与者内的标准差并不容易,因为阈值是通过拟合心理测量函数来计算的。因此,我们为一系列可能的σw值生成了功效等值线曲线图,并将这些曲线图与通过重复抽样得到的曲线进行了数值比较(图4c)。最佳拟合值为σw=33.5 dB,这意味着(通过公式2)参与者之间的标准偏差σb=1.3 dB。接下来,我们分析了Vilidaite、Marsh和Baker(2019)报告的对比辨别实验中的事件相关电位(ERPs),该实验使用64导的EEG电极帽记录。刺激物是对比度为50%的正弦波光栅,成对依次呈现,每次100 ms,刺激间隔为400-600 ms。这些刺激物产生了典型的ERP成分(见图5a)图5 ERP数据结果。(a)总体平均的ERPs波形图。每个线条周围的阴影区域为被试的±1 SE(N=22),灰色矩形表示用于估计峰值的时间窗。地形图显示了刺激开始后226ms头皮上的电压分布,黑色符号标记了用于ERPs平均的电极(Oz,O1,O2,POz,PO3~PO8)。(b–d)表示在每个时间窗口中,被试(N=22)的不同ERPs成分的平均峰值,包括时间间隔及差值。(e–g)显示每个时间窗口内峰值电压的功效等值线。这些在枕部电极上产生了典型的反应(参见图5a的插图),在120ms和220ms左右出现正峰值(标记刺激开始和偏移),随后出现负区域,在600ms左右出现波谷。每一对的第一个刺激(黄色曲线)产生了比第二个刺激(蓝色曲线)更积极的反应,部分原因是差异重叠,尽管差异的确切原因对于这个示例并不重要。每个试次都刺激呈现前的200 ms内的平均电压作为基线。这个研究的样本量(N=22)是相对合适的 (尽管是经典的ERP研究),但是每个参与者都完成了大量的试次(k=600个刺激对)。对于每个被试,我们计算了三个时间窗口内的峰值电压和潜伏期,在图5a中以灰色突出显示。这些时间窗口分别为100~150 ms、200~300 ms和500~700 ms,分别对应于P100、P200和N600成分。用重复测量的方法比较两个时间间隔的峰值电压和潜伏期。图5b-d显示了三个时间窗口中参与者之间的峰值电压和电压差分布,这三个时间窗口产生的效应量(Cohen's d)分别为1.18、1.11和1.32。我们对潜伏期进行了类似的计算,但是,这些结果不太令人相信,三个时间窗口的效应量分别为d=0.21、0.04和0.47。我们在这里不进一步考虑它们,尽管可以为具有更稳健的潜伏期差异的数据集计算功效等值线。我们通过对试次和被试进行重复抽样计算了三个峰值电压差异的功效等值线,并在10000次迭代中对每个被试和条件的峰值进行了重新估算。这些在图5e-g中显示,并且在所有情况下都具有预期的形式。对于P100成分,在所有样本量和试次数量中,功效持续增加。对于N600成分,功效很大程度上取决于样本量,只有相对较少的试验(k<200)才能通过增加更多的试次大大减少样本量。这表明,在经典的ERP实验中,统计功效的局限性可能取决于样本量和试次数量,而它们的相对贡献可能取决于所研究的效应量。参见Boudewyn、Luck、Farrens和Kappenman(2018)以及Clayson和Miller(2017),了解ERP研究中对这些问题的更详细讨论。对于该数据集,σw的标准偏差估计值在12μV~21μV之间,σb的标准偏差估计值在1.1μV~5.3μV之间。另一种脑电模式是稳态方法,即刺激以特定频率振荡,诱发相同频率的夹带神经反应。在Vilidaite等人(2018)报告的样本量为N=100名被试的一项实验中,不同对比度的正弦波光栅在7 Hz时闪烁。每个受试者完成8个试次,每个对比度11秒,其中前1秒的脑电图数据被丢弃,剩下的10秒被分成10个时间段,每个时间段1秒,得出每个条件下的k=80个观察值。然后对每个分段进行傅里叶变换,在基频(闪烁)频率(7Hz)和二次谐波(14Hz)下都有明显的响应,如图6a所示。对于这些视觉刺激,在靠近早期视觉皮层的枕叶的电极点上的反应最强(见图6a脑地形图)。图6 SSVEP数据示意。(a)显示了整个长为10s 试次的傅里叶光谱,使用相干(蓝色)或非相干(红色)平均值,以及头皮在7 Hz时的活动分布(脑地形拓扑图)。(b)显示了两种类型平均值的对比度响应函数。(c)显示了一个被试的振幅分布示例,(d)显示了总体的平均值。(e)和(f)分别显示了相干平均和非相干平均的功效等值线。在Oz电极上,最大刺激对比度的基频响应单调递增(见图6b)。对于8%的刺激对比度(用蓝色圆圈标记),将绝对响应(即,在平均值之前去除相位分量)与基线条件(0%对比度,黄色圆圈)进行比较,得到d=0.2的效应量。然而,这可以通过使用相干平均来显著地增加(d=0.68),在相干平均中,每个个体被试的振幅和相位信息在试次中被平均(并且绝对振幅随后在被试间被平均)。这种效应增加是因为对刺激的反应是相位锁定的,因此在每次试验中应该有相同的相位。在刺激频率处的任何噪声都有随机相位,因此多次重复都会抵消。相干(蓝色)和非相干(红色)平均法的傅里叶光谱示例如图6a所示,在图6a中可以清楚地看到,相干法大大降低了目标频率附近的噪声。特别注意,α波段(8–12 Hz)的噪声增加在非相干平均(红色)中很明显,但在相干平均(蓝色)中没有。在对比度响应函数(图6b)中,相干平均(蓝色函数)导致低刺激对比度下的振幅较低,而在非相干平均(红色函数)中,响应必须克服更高的“噪声底”才能被检测到。个体和总体的电压分布示例如图6c和6d所示。我们使用相干(图6e)和非相干(图6f)平均法对重复采样的数据计算功效等值线,这进一步证实了相干平均法可获得更大的统计功效。相干条件下的80%功效等值线(图6e中的粗线)相对较缓,表明增加样本量和增加试次数量都将在大部分范围的研究中提升功效。例如,将样本量从N=100减半到N=50,需要将每个被试的试次数从大约k=20增加到k=40,以保证功效保持在80%左右。我们在较高的刺激对比度(未显示)下证实了这一般性的推测。由于相干平均排除了标准差内的典型计算,因此我们再次将σw范围内的功效等值曲线拟合到通过重复抽样得到的功效等值线。最佳拟合值为σw=3.1 μV和σb=0.19 μV。功能磁共振成像的一个广泛应用的范例是事件相关设计,在这个设计中,刺激以动态的刺激间期(ISI)呈现。我们从Cam CAN存储库(可在http://www.mrc-cbu.cam.ac.uk/datasets/camcan/)Shafto等人(2014)和Taylor等人(2017)详述的事件相关功能磁共振成像实验。简言之,N=625名参与者观看了双边棋盘模式,呈现时间为30ms,重复k=124次。一些刺激伴随着一声蜂鸣音,但这在我们的分析中被忽略了。我们使用FSL进行数据的预处理。这涉及到将功能数据结合到个体参与者的解剖扫描,然后结合到标准的MNI152脑区。我们利用这些变换的逆运算,将从Wang、Mruczek、Arcaro和Kastner(2015)获得兴趣区的功能数据的概率分布图投影到初级视觉皮层(V1)(见图7a)。图7 事件相关功能磁共振成像分析和结果。(a)显示了标准(MNI152)大脑中表面的V1感兴趣区域(蓝色区域)。(b)显示了我们一般线性模型中使用的标准双伽玛血流动力学响应函数。(c)显示了一个参与者V1 ROI的时间过程示例(蓝色),以及一个基于刺激事件(红色)构建的用于预测该时间过程的一般线性模型(黑色)。绿色和紫色的轨迹显示了带有随机试验子集的示例GLM组件。(d)显示了完整GLM模型所有刺激事件(黄色)或随机模拟时间(蓝色)的β权重的总体分布。(e)显示了这些事件相关功能磁共振成像数据的功效等值线图。对数据进行计时切片和个体位移校正,并进行0.01hz的高通滤波。然后平均整个V1兴趣区(ROI)的时间过程,并导出数值以供进一步分析。虽然解剖定义的ROI必然包括一些对刺激没有反应的体素,但我们希望这些体素的噪声能够平均,不会对结果产生不利影响。然后,我们使用单独的试次时间为每个数据集构建了一般线性模型(GLMs)。为了模拟不同试次数的实验,每个GLM使用随机进行试次分配将数据分成两个任意组:一个“目标”条件和一个“非目标”条件。第三种情况模拟了四个听觉试验,缺乏任何视觉刺激。使用 fmri.stimulus 函数对一个典型的双伽玛血流动力学响应函数(图7b)与每种情况进行卷积,并且整个模型中包含了正交二阶多项式漂移项。然后,我们拟合GLM来确定目标条件的回归(beta)权重,以用作因变量。通过改变分配给目标和非目标条件的试次数量,我们能够模拟不同试次数量的实验,同时保持GLM设计的平衡(见图7c)。为了提供一个零条件,我们使用实验时间过程中随机确定的事件重复分析(即,不使用真实事件计时)。这产生了如图7d所示的beta权重的样本分布,并导致整个数据集的效应量为d=0.9。我们计算了不同试次数量的真模型和零模型的β值之间的差异对个体的效应量的影响(见图7c),并用这些来估计统计功效。如前所述,对试验和参与者进行不同的随机抽样,重复模拟10000次,以生成功效等值线(见图7e)。与以前的几组数据一样,整个试次数据范围内的功效继续增加,因此,仅通过改变试次数量,样本量从N=20到N=600,就可以保持80%的统计功效。这种灵活性使得事件相关的设计即使在样本量相对较小的情况下也能获得很高的统计功效,但对于每种情况都要有足够的试次是至关重要的。通过包含太少的试次(如:k<60),设计一个统计功效眼中不足的研究也很简单。我们通过拟合重复抽样的功效等值线来估计标准偏差,得出σw=515 和σb=32.2(β单位)。另一种流行的功能磁共振成像模式是block设计,在这种设计中,刺激呈现几秒钟的时间,同时无刺激的时间间隔。通常情况下,事件安排与功能量(重复时间,或TR)的获取相一致。block设计通常比事件相关设计具有更大的统计功效,因为刺激时间更接近于血流动力学活动的缓慢时间限制,更长的持续时间呈现(相对于事件相关设计)允许随着时间的推移大胆的信号相加。我们重新分析了由N=83名参与者组成的数据集,所有参与者都观看了一系列面部、物体、位置的图像,并将这些图像作为Flack等人(2015)描述的功能定位分析的一部分。刺激以6s的block呈现,每个block间隔时长为9s的空白屏幕。在每个block中,依次显示5幅图像,每个图像1000 ms,间隔为200ms。fMRI数据以3s的TR获得,因此一个完整的周期(一个block加block间间隔)持续15s,即5 TRs。每个参与者完成k=35个block。对功能数据进行高通滤波,去趋势化,转换成百分比信号变化,并与MNI152大脑对齐。然后,在图7a所示的V1 ROI上对时间序列进行平均。被试的时间序列示例如图8a所示,并且表现出明显的刺激驱动调制,与试验周期相匹配的周期为15秒。BOLD反应在刺激开始后9秒达到峰值,如图8b所示,图8b是示例参与者所有35个block反应的平均值。图8c显示了每个时间点(相对于块的开始)的BLOD响应分布。图8d-f显示了N=83名参与者的比较数据,表现出了相同的模式。为了生成一系列效应量的功效等值线,我们比较了连续样本点对之间的活动。效应量从3s和0s的d=0.26增加到6s和3s的d=1.7。这些比较中σw的标准差范围为0.47–0.52%,σb的标准差范围为0.23–0.40%。对于k=15以上的试次数的功效等值线(见图8g-j)接近渐近线。这种模式与前面讨论的事件相关的功能磁共振成像结果有些不同(见图7),增加更多的试次可以持续提升整个范围的功效。对于较大的效应量(图8h-j),即使是相对较小的样本量(N<20),统计功效也很高,这是许多神经影像学研究的典型特征。当然,在V1中寻找对视觉刺激的反应可以保证产生大的效应量:大多数功能磁共振成像研究都是为了测试更微小的效应,而这些效应不可避免地比这里的例子要小。Cam CAN数据集还包含MEG对相同视觉刺激的反应(k=120个试次),如事件相关功能磁共振成像部分所述,使用VectorView系统记录。我们进行0.01~30 Hz的带通滤波,基线校准并每个参与者的数据进行分段,然后在单个电极点上进行单样本t检验(与0比较)(见图9a)。我们选择了刺激开始后不久的三个时间点(50、54 和58 ms)来测试这个大样本量(N=637)的功效,并探索与经典实验中所探讨的相近的效应量,在典型实验中,对不同刺激或精神状态的反应可能会有微小的差别。图9 MEG结果 。(a)显示了所有参与者(N=637)在204个平面梯度仪诱发反应平均值的波形图。MEG montage被描绘在左上角的插图中,其中正交方向的平面梯度仪用蓝色和红色表示,magnetometer locations 用灰色表示。右上角插图显示了102个梯度仪子集的场强分布,这些梯度仪在130 ms(黑色曲线的峰值)时具有一致的方向,黑点表示用于分析的传感器的位置。黑色曲线上突出显示的彩色点表示用于功效分析的时间点。(b) 显示单个参与者在三个目标时间点的场强分布。(c) 显示了相同的结果,但样本人群N=637名参与者。(d–f)显示不同时间点的功效等值线。诱发反应显示最初的极化开始于50 ms左右,随后在130 ms出现相反极性的较大峰值(见图9a)。当包括所有试次和被试时,三个时间点的效应量从50 ms时的d=0.17增加到58 ms时的d=0.51。对于前面的例子,被试内差异(图9b)明显大于被试间差异(图9c)。在50–400ms的时间窗口内,σw的值范围为8.25−11.77 pT/m,σb的值范围为0.87−6.61 pT/m。重复抽样的功效等值线呈现了与之前相同的形式(见图9d-f),当使用完整数据集时,仅仅在50 ms时间点时的功效达到80%。在随后的时间点,iso-功效等值线表明可以保持恒定功效,例如将试次数量从k=20增加到k=60(在54 ms时)时样本量从N=400减少到N=200。我们主张将统计功效表示为样本量和试验次数的联合函数,即功效等值线图。iso-功效等值线是通过从实验心理学和人类神经科学中广泛使用的一些范例中的数据集进行重复抽样生成的,涵盖了一系列不同的样本大小和试验数量(如图10a所示)。图10 样本量、试次数量和实验范式中的Fano-factors组合。(a)中的每个矩形覆盖了此处分析的其中一项研究的样本量和试次数量范围,面板(b)中的不同颜色的图例中定义了相应的实验范式。(b) 根据 表1 给出的被试内和被试间的标准差绘制的Fano-factors(方差除以平均值)。注意两个面板的对数标度轴。在大多数情况下,iso-功效等值线揭示了这样一种情况,即只要每个被试完成更多的试次,就可以用较少的被试保证统计功效。对于某些范式,在特定数量的试次中,功效达到渐近线,超过该值,进一步的测试对评估统计显著性没有好处(尽管正如我们在下面所指出的,额外的试验在个体差异的研究中可能是有用的)。在其他范式中,特别是那些因变量是通过某种形式的模型拟合得出的范式中,通过重复测试,功效继续提高,超出了我们的数据集可以评估的范围。此外,除样本量和试次数量之外,统计功效的影响因素还有被试内和被试间的差异(如图11所示)、两个测量因素之间的协方差(如图11所示)。图11 参与者内标准差分布对功效的影响,以及重复测量之间的相关性总结。(a)说明了参与者内部标准差的可能分布。灰色曲线显示了从MEG数据集得出的经验分布(58 ms时N=637)。虚线给出了一个固定值,即经验分布的平均值,不包括>15 pT/m的值。蓝色曲线显示正态分布,平均值和标准差来自经验分布(m=6.99,标准差=2.17)。黄色曲线显示最符合经验分布的伽马分布(形状=17.64,比例=0.36)。(b)使用(a)中所示的四个分布,显示了统计功率作为一系列样本大小的试验次数的函数。c–e 显示了重复测量设计的模拟功率等值线,作为两种条件之间相关性(R)的函数。对于这些模拟,我们假设组间平均差为0.5,参与者间标准差为2,参与者内标准差为10。总方差在相关范围内保持不变。11. 适用于其他统计检验和方法
到目前为止,在所有的例子中,我们都使用基本的统计检验(t检验)来确定研究的功效。然而,我们在此开发的重复抽样方法可以很容易地扩展到更高级的统计方法,包括非参数统计、方差分析、相关、回归、贝叶斯方法等(如图12所示)。如果满足计算相关统计功效的假设,则重复抽样试验方法对数据的形式没有具体要求(与bootstrapping方法一样)。
图12 单因素和重复测量方差分析的功效等值线示例。(a)显示了一个单因素重复测量方差分析的功效等值线图,使用了来自block设计的fMRI数据的三个水平(见图8中)。在使用SSVEP数据集的7×2重复测量ANOVA分析中,b–d显示对比度(b)和掩蔽水平(c)主要影响的功率等值线,以及它们之间的交互作用(d)(见图6中)。总之,我们在这里讨论的这类实验研究通常旨在减少样本方差(σs)以增加效应量,而使用个体差异方法的研究则旨在最大化被试间的有意义差异。然而,重要的是,观察到的变化(σs)确实是个体差异(高σb)的结果,而不仅仅是测量不良(高σw和低k)的结果。传统的心理测量工具,如人格和能力测试,通常具有较高的重测信度,这意味着较低的被试内方差(σw),但这可能不是神经科学和实验心理学范式。明确估计这些值(例如,使用公式2)可能有助于关注个体差异的研究者使用此类方法优化试次数量和样本量。我们注意到,由于σw>σb对于本文所考虑的范式(表1和图10b)中这两个参数的所有估计,个体差异研究将需要足够的试次来减少被试内方差(σw)对样本方差(σs)的不必要影响。在这里,我们提出了在心理学和人类神经科学的实验研究中,将测量(试验)次数纳入统计功效计算的基本原理。功效等值线图可以通过对现有数据集进行重复抽样或使用在线工具生成,并允许研究人员在研究设计阶段就测试多少被试以及每个被试测试多长时间做出明智的选择。然而,与所有先验功效计算一样,在收集数据之前,真实效应大小和方差仍将是推测性的。在可重复性危机背景下,如何规避假阳性结果的风险,是越来越多的实验研究设计应该重点考虑的问题,以及如何有效操控实验中的相关因素提升统计功效,是我们更应该留心的问题。关于此系列,我们可以关注之前的一些推文:EEG实验中Matlab并口数据位发送和接收的实现方法
攻克心理学研究中文献查阅的七大难关
心理学实验常用编程软件和学习资源汇总
基于SHINE toolbox的图片标准化教程
EEG/ERP学习资源汇总
EEG等电生理数据开放共享合集